首页> 外文OA文献 >Deep Supervised and Convolutional Generative Stochastic Network for Protein Secondary Structure Prediction
【2h】

Deep Supervised and Convolutional Generative Stochastic Network for Protein Secondary Structure Prediction

机译:深度监督和卷积生成随机网络   蛋白质二级结构预测

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Predicting protein secondary structure is a fundamental problem in proteinstructure prediction. Here we present a new supervised generative stochasticnetwork (GSN) based method to predict local secondary structure with deephierarchical representations. GSN is a recently proposed deep learningtechnique (Bengio & Thibodeau-Laufer, 2013) to globally train deep generativemodel. We present the supervised extension of GSN, which learns a Markov chainto sample from a conditional distribution, and applied it to protein structureprediction. To scale the model to full-sized, high-dimensional data, likeprotein sequences with hundreds of amino acids, we introduce a convolutionalarchitecture, which allows efficient learning across multiple layers ofhierarchical representations. Our architecture uniquely focuses on predictingstructured low-level labels informed with both low and high-levelrepresentations learned by the model. In our application this corresponds tolabeling the secondary structure state of each amino-acid residue. We trainedand tested the model on separate sets of non-homologous proteins sharing lessthan 30% sequence identity. Our model achieves 66.4% Q8 accuracy on the CB513dataset, better than the previously reported best performance 64.9% (Wang etal., 2011) for this challenging secondary structure prediction problem.
机译:预测蛋白质二级结构是蛋白质结构预测中的一个基本问题。在这里,我们提出了一种新的基于监督的生成随机网络(GSN)的方法来预测具有深层次表示形式的局部二级结构。 GSN是最近提出的深度学习技术(Bengio和Thibodeau-Laufer,2013年),用于在全球范围内训练深度生成模型。我们提出了GSN的监督扩展,它从条件分布中学习了一个马尔可夫链样本,并将其应用于蛋白质结构预测。为了将模型缩放为完整的,高维的数据,例如具有数百个氨基酸的蛋白质序列,我们引入了卷积体系结构,该体系可以跨层次表示的多层有效学习。我们的体系结构独特地专注于预测结构化的低级标签,该标签以模型学习的低级和高级表示为基础。在我们的申请中,这对应于标记每个氨基酸残基的二级结构状态。我们在共享少于30%序列同一性的不同组非同源蛋白质上训练并测试了该模型。对于这个具有挑战性的二级结构预测问题,我们的模型在CB513数据集上实现了66.4%的Q8精度,优于之前报道的最佳性能64.9%(Wang等,2011)。

著录项

  • 作者单位
  • 年度 2014
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"en","name":"English","id":9}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号